查看原文
其他

​CHFSer风采 | “把握数据的运镜手法,让数据结构与经济研究目的具有一致性”

刘家兵 中国家庭金融调查 2022-12-31


CHFSer风采 | “把握数据的运镜手法,让数据结构与经济研究目的具有一致性”

导语:经济研究的叙事性离不开数据内部对时空的压缩,因果推断的施动与受力就蕴含在以数值编码的电影之中;从这一点上看,抽样与会计制表都是一种瞬时速冻工艺。而要使得数据对于研究更有益,关键在于数据的运镜手法,即数据结构与经济研究的一致性。

去年国庆,保研后的我不愿就此挥霍大四的宝贵时光,由于有意读博深造并从事研究性工作,在寻觅实习的时候,我一眼相中了中国家庭金融调查与研究中心“数据集成与分析助理”的实习。


我从事的数据集成工作有一套完整的流程规范,在完成原始数据的搜集后,需要分两轮来对数据进行清理。每一轮中,首先需要核实并校订不规范的变量名,以使其与变量编码相匹配;随后通过返回无法匹配的数据所对应的原始资料,来进行更为细致地查验。这样的工作重复两轮后,若数据匹配率达到一定标准,则可对数据进行更新。在数据清理的同时,我也会负责编撰对应的变量说明和数据清理的案例集,方便数据使用者进行查阅。


总的来说,要生产一份优质的厚数据,意味着至少要在以下几点上着力:


第一,回归经济现象本身,从中提炼第一手的数据材料,臻于细节,不漏点滴。在实习期间,我主要参与的工作是一份全国层面的数据集成项目,其数据来源于对应的信息公开网站,由先前的数百名实习生手工制表标准化而来。在我对数据进行核对和清理时,常常遇到格式有误或数据异常的表格,这时候需要做的首先是返回原始数据;若原始采集的数据有误,则需要再返回提取数据的站点,逐一进行校对。这一处理流程的核心是对原始资料的尊重,更是对经济事实本身的复现。虽然数据生产也近乎于一种创作,但在数据生产中没有狄俄尼索斯的狂愉与嬗变,只能信奉日神的如一与规范。


第二,深入理解数据刻画的对象,对有误的目标数据做文物级的鉴定与修复。贯穿我整个实习阶段的,是学习如何与数据、现象的碎片——进行交流。举个例子,发现变量B并不在规范的变量名列表中的时候,查阅原始数据,数值或字符串的相似提示我,不合理的变量B可能与规范的变量A相关。为了掌握A与B之间的具体关系,可能需要整理近十年相关政策的变迁,其间需要调用从工程管理技术到财务会计准则的系列知识。最终发现B是A的曾用变量名时,你感觉自己像一名努力控制手臂颤抖的文物修理员,在一股失重般的欣慰中,缓缓将镊子尖端的粘胶涂在岁月边缘。


第三,通过对整个研究过程的判断与把握,提供既符合生产标准,又满足使用标准的数据。经济研究的叙事性离不开数据内部对时空的压缩,因果推断的施动与受力就蕴含在以数值编码的电影之中;从这一点上看,抽样与会计制表都是一种瞬时速冻工艺。之前提到的两点都是对数据生产的要求,但仅满足这两点是无法便利研究实施的。要使得数据对于研究更有益,关键在于数据的运镜手法,即数据结构与经济研究的一致性。譬如A变量虽然不是待集成的标准变量,但若其多次出现,且对应的变量涵义为当下研究所需,那么就有必要为A变量建立档案,严格按照数据集成规范来处理相关数据。

写在后面:


回顾本科,我的专业着重培养了我理论分析和批判思考的能力,在数据的具体运用和处理上,则接触有限。初闻数据集成与清理工作,我以为是在数据分析、计量检验等运用阶段前辅佐老师进行数据的预处理。而进入培训阶段后,我才意识到这份工作需要彻底深入数据生产的环节,这是我未曾设想到的。


从我入职之初到渐入佳境,中心严云贵老师在技术细节、学科知识和程序技能等方面都给我提供了大量的援助与建议,对我大有裨益。数据部的其他老师也热心助力于实习生培养,令人不甚感激。在数据集成之外,今年我也将参与数据插值、问卷分析等其他工作,力图从更开敞的视角出发,以多重维度考量中国家庭金融调查(CHFS)数据,在提高中心数据质量方面尽绵薄之力。


最后,对于有志于学,或愿意提升数据处理技能、培养经济与统计思维的同学,我很推荐大家来到中心实习。这可能不是你当下的dominant strategy,但在时光的积淀中,你一定会发现它满足你的core。

作者简介

刘家兵,中国家庭金融调查与研究中心“数据集成与分析助理”, 荣获数据部2020年度“数据星”荣誉称号。西南财经大学2017级经济学院经济学专业在读的本科生。自2020年10月初入职以来,累计实习时长约四个月。

End


 作者  | 刘家兵
 审核  | 公关国际部
 编辑  | 王予琪

● 中  心  新  闻 ●

中心“云”调查平台建设实现新突破!

中心“云”调查平台可以做什么?


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存